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Itesum^ 

L'invention presentee ici est im algorithme pennettant uue gestion 
complete de grandes bases de donnees. H repose sur une representation 
denormalisee de la base ainsi que sur le stockage d^ensemble d'entiers 
dans des arbres k radicaux. 



1 Introduction 

Cette invention est une nouvelle fagon de gSrer des bases de dounees. 
H repose sur Tutilisation d'arbres a radicaux pour stocker des ensembles 
d'entiers et pour faire des operations logiques dessus. 

La complexite de Palgorithme presente ici est plus basse que celle des al- 
gorithmes couranmient utilise. Ces demiers consommeut en effefc de grandes 
ressources machine, que ce soit du point de vue des ressources processeurs 
que des ressources disques. La presente invention pallie ces inconvenients. 

L'algorithme utilise en outre une representation hierarchique des doim^. 



2 Arbres k radicaux 

Un arbre a radicaux est un moyen pratique de stocker des ensembles 
d'entiers, particulierement quand iJs sont Merits sin: ime meme longueur* 
Lorsqu'pn utilise des entiers, il est clairement toujours possible de leur im- 
poser la meme longueiu: d'ecritxire (celle du plus long ou plus) en fsdsant 
pr&:eder leur ecriture du nombre adequat de chiffi:es 0. 

ConsidSrons par exemple un ensemble d'entiers qu'on ictit sur une lon- 
gueur unique en base. 2, 5 = {0, 2, 5, 7, 11} = {0000, 0010, 0101, 0111, 1011}. 

*6S, rue de la Coloaie 75013 Paris josepIi.lE06ka8fl9onli2ie.fr 
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On peut alors stocker cet ensemble dans un arbre a radicaux dont las che- 
nnns, depuis la racine jusqu'aux feuilles, repr&ente Tecriture de rentier 
stocke dans la feuille de Parbre. Par exemple, Tenseinble precedent peut 
etre stocke dans Tarbre a radicaux suivant : 

Les avantag^ a ufciliser im arbre a radicaux sont fort nombreux : le sto- 
ckage est economique en termes de place memoire car les prefixes communs 
aux nombres disfcincts ne sont stockes qu'une seule fois. Par ailleurs, comme 
nous le verrons dans les paragraphes suivants, les operations logiques sur des 
ensembles stockes ainsl sont rapides, &»nomiques en termes de ressources 
machines et simples a impl^menter. 



2.1 Intersection 

Si on considere deux ensembles d'entiers, stockes dans des arbres a radi- 
caux, le cout du calcul de rintersection de ces deux ensembles est 0{ih) on i 
est le cardinal de Tintersection de ces deux ensembles et A la plus petite des 
deux hauteurs des deux arbres qu'on intCTsecte. II suffit en effet de parcourir 
les deux arbres en largeur simultan&nent. 



2.2 Union 

De meme le calcul dei la reunion de deux ensembles stocks dans des 
arbres a radicaux est 0(uh) ou u est le cardinal de la reunion et h la plus 
grande des deux hauteurs des deux arbres dont on calcule Tunion. 



3 Creation des indexes . 

Dans cette section, on detaille comment des arbres k radicaux peuvent 
etre utiles et efficaces pour stocter les donn^ d'une base de donn^ ou 
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pour la modifier, 

Dans la premiere sous-secfcion, on suppose que la base de donnees n'est 
compos^e que d'xme table, elle-meme composee d'une unique colonne. 

Puis nous supposerons que la base de donnees n'est compost que d'une 
unique table, elle-meme composee de plusieurs coloimes, et d'au moins une 
cle primaire. H pent en efFet s'av&er tres pratique d'autoriser une table 
a etre munie de plusieurs cles primaires. En efFet, en pratique, il arrive 
frequemment qu'une ligne de table ne soit que partiellement remplie. II se 
pent alors qu'une des cles primaires soit incomplete, done inutilisable, mais 
qu'une autre soit complete. 

La derniere sous-section est dedie a la creation des indexes d'une bases 
de doimSes quelconque. 

3.1 une table, une colonne 

Cles primaires. Une cle primaJre est ime colonne, ou im ensemble ordonne 
de colonnes, tel que deux lignes diff&entes de la table ne puisse prendre les 
memes valeurs sur cette (ou ces) colonnes. 

n existe cependant toujours ime cle primaire implicite et tres utile : 
I'indice de la ligne dans la table (il s'agit en effet d'une cle primaire puisque 
deux lignes distinctes ne peuvent avoir le m&ne indice de ligne). Dans la 
suite de la description de cette invention, nous supposerons que cette de 
primaire est effective. 

Si on doit stocks, interroger et gerer une base de donnees faite d'une 
unique table elle-meme constituee d'une unique table, on peut calculer le 
thesaurus de cette colonne et pour chaque mot de ce thesaurus calculer 
I'ensemble des indices de lignes auxquels fl apparait. 

Ces indices de lignes peuvent tout naturellement etre stodkes dans un 
arbre k radicaux. 

3.1*1 Creation du thesaurus 

Remaxquons qu'au cours de la creation du thesaurus, un tri des donnees 
est effectu6. On trie en effet Tensemble des couples (mot, indice de ligne) 
selon les mots et, & mot 6gal, selon les indices de lignes. Ainsi on peut 
d'une part calculer le thesaurus et d'autre part, pour chax:un des mots de ce 
thesaurus I'arbre a radicaux des indices de lignes auxquels il apparait. 

Prenons un aicemple : la table : 
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0 


Male 


1 


Female 


2 


Femiale 


3 


Male 


4 


Female 


5 


Male 


6 


Male 


7 


Female 


8 


Female 


9 


Male 


10 


Male 



(dans cet exemple, les indices de lignes sont indiqufe explicitement). 

On construit alois les couples (Male, 0), (Female, 1), (Pfemale, 2), (Male, 
3), (Female, 4), (Male, 5), (Male, 6), (Female, 7), (Female, 8), (Male, 9), 
(Male, 10) et on les trie selon leur premier element en priorite : 

^male, 1), (Female, 2), (Female, 4), (Female, 7), (Ffemale, 8), (Male, 
0), (Alale, 3), (Male, 5), (Male, 6), (Male, 9), (Male, 10). 

On pent alors construire le thesaiarus et, poxor chaqne mot du thesaurus, 
Tensemble des indices de lignes auxquels il apparait. 

Le mot 'Tfemale" apparait aux lignes {1,2,4,7,8} et «MaIe» apparait 
aux indices {0, 3, 5, 6, 9, 10}. 

Apres ce travail, il est tres simple de repondre a une question comme 
"Quels sont les indices de lignes auxquels apparait le mot "Male" T* mais 
relativement difficile de repondre a une question comme "Quel est le contenu 
de la cellule de la ligne 5 ?" . Pour ce genre de requete, on pourra consulter 
la sous-section 5 ci-apr%s« 

3.1.2 Stockage des fonctions iadicatrices 

Ces ensembles d*indices de lignes peuvent done etre stockes dans des 
arbres a radicaux. Ce precede de stotiage est tres utile pour calculer Tin- 
tersection, la reunion etc. . . .de tels ensembles. 

Dans Texemple precedent, on obtient (voir figure 2) : 
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Figure 2: Example of the lepiesentatioii of a column of a table 
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3.1.3 !Macro mots 

n ffit une autre requete oourante qui concerne le oontenu d'une colonne : 
le «entre" : on peut souhaiter connaJtre les indices de Bgnes dont le contenu 
est compris entre deux bornes donnees. 

Lnaginons par exemple qu'une colonne contienne des dates, ecrites au 
format AAAAMMJJ. Comparer deux dates stodc^ sous oe format est en 
fait la meme chose que les comparer lexicographiquement. 

Mais nous pouvons aussi enrichir le thesaurus de mots obtenus comme 
troncatures des mots du thesaurus mitiaL Par exemple, on peut d&ader 
d ennchir le thesaurus de toutes les troncatures des quafcie ou six premises 
lettres des mots du thesaxurus initiaL 

Ainsl chaque mot serait represente, dans notre exemple, trois fois : une 
fois en tant que lui mgme, une fois tronqu6 k six caractfeies et une demiere 
fois tronquS k quatre caract^es. 

Ibut mot de six caract^, disons aaaanun, apparaitra k chaque fois que 
la ligne mitiale contenait un mot aaaammxx. En d'autres termes, I'ensemble 
d^ lignes auxquelles apparajtra le mot aaaamm est la reunion des ensembles 
d'mdices de lignes 06 apparait un mot de la forme aaaammxx (c'est-luiire 
aaaamm suivi de quoi que ce soifc). 

De meme un mot de quatre caractkas aaaa apparaJtia k chaque fois 
qu un mot de la forme aaaaxxyy ^ait present dans la table initiale. Son 
arbre k radicaux est done Punion des arbres a radicaux des mots dont il est 
prefixe. 

L'int&6t est qu'une clause «entre» (between en anglais) peut se trai- 
ter avec une €conomie importante en teimes de lectures sur proc&i6 de 
stodcage. Par exemple, si on cherche I'ensemble des lignes auxquelles ap- 
parait une date comprise dans llntervalle [19931117, 19950225], le uombre 
de lectures n^cessaires d'arbres k radicaux est de 14 + 1 + 1 + 1 + 25 = 
42 (car 119931117,19950225] = 119931117, 19931130] U [199312, 199312] U 
[1994, 1994] U 1199501, 199501] U [10050201, 19950225J), au lieu de 466. 

3.1.4 Gerer les manques 

H peut parfois se trouver que certaines lignes d'une tables ne soient pas 
renseign^es. Mais pour creer les arbres a radicaux, toute ligne devrait avoir 
une valeur. On choieit done des valeurs signifiant que la ligne correspondante 
ne contient pas d 'information. Naturellement, on choisira une valeur ayant 
un rapport avec le lype des donnees stockees; A titre d'exemple, on peut 
choisir : #i?mpt2/# pour une chaine de caractferes, -2^^ pour un entier signe 
sur 32 bits, 232 _ ^ ^ ^^^^^ ^.^^ ^ ^^^^^ ^ ^^.^ 

signfi sur 64 bits, 2« - 1 pour un entier non sign6 sur 64 bits, etc.. . . 
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Un stockage supplementaire 

Comme explique prec^demmenfc, le stockage d'une colonne par thesaurus et 
arbres k radicaux n'est pas tres pratique pour repondre a una requete comnae 
"Quelle est la valeur de la ligne 17 par exemple. 

C'est pourquoi il est necessaire de stocker en sus la colonne dans son 
ordre nature!, Bien siir, plutot que stocker la colonne elle-meme, il sera 
souvent avantageux de stoker la suite des indices de mots dans le thesaurus. 

Par exemple, la colonne prgc^ente sera stockee de la fagon suivante : 



sera stock6e en : 



0 


Male 


1 


Female 


2 


Female 


3 


Male 


4 


Female 


5 


Male 


6 


Male 


7 


Female 


8 


Female 


9 


Male 


10 


Male 




Thesaurus 


0 


Female 


1 


Male 



et la colonne : 
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Remarque : il peut se trouver qu'au fur et mesure que la base de 
donnees est transformee, un mot apparaisse ou disparaisse du thesaurus 
(par exemple loisqu'on retire ou ajoute des Kgnes a la table). On pourrait 
dks lors praiser que la r66criture complete de la colonne est n&essaire. Ce 
n'est en fait pas le cas : Plut6t que stocksr le thesaurus tri6, on peut le sto- 
cker non tri6 et enregistrer 4 part une permutation permettant de retrouver 
I'ordre lexicographique des mots qui le composent. C'est pourquoi si uu mot 
apparajt dans le thesaurus, la rSecriture complete de la colonne n'est pas 
n€ces8aire. On r^eoat dans ce cas la permutation permettant de retrouver 
I'ordre lexioographique des mots plutot que le thesaurus lui-meme. 

8.1.6 Resume du stockage complet d 'une colonne 
3.2 Une table, plusieurs colonnes 

^ Dans le cas d'une base de donates ne contenant qu'une seule table elle- 
mdme constituee de plusieurs colonne peut etre traitee oomme si elle 6tait 
form^e de colonnes ind^pendantes. En d'autres termes, on peut cr^er le 
stodsage de chacune des colonnes constituant la table. 

La seule question en suspens est alors le traitement de la de primaire. 

LoEsqu'on s'occupe d'une de primaire, on a besoin d'etre capable de 
repondre le plus rapidement possible a deux types de requetes opposees : "A 
quelle L'gne peut-on trouver une valeur donnees de cle primaire" et "Quelle 
est la valeur de la d6 primaire tiouvfe a ime ligne donn^e?". 

On peut r6pondre efficacement a ces deux types d'interrogation en sto- 
dsant k la fois la colonne ou les colonnes formant la d6 primaire dans I'ordre 
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dans lequel les lignes apparaissent dans la table et une permutation per- 
mettant de lire les colonnes dans Pordre lie k une fonction quelconque de 
comparaison. On peut gJors retrouver une valeur donnee par achotomie. 

Par exemple, imaginons qu'une cl6 primaire est formee de deux colonn^, 
dont les valeurs sont stockees dans le tableau ci-dessous. 



(0) 


1 


3 


(1) 


2 


1 


(2) 


3 


2 


(3) 


2 


3 


(4) 


1 


2 


(5) 


3 


7 


(6) 


2 


2 


(7) 


1 


1 


(8) 


3 


3 


(9) 


4 


3 



Dans cet exemple, les indices de lignes sont k nouveau exprimfe escplici- 
tement mais mis entre parentheses. On stocke done 1^ deux coloimes exacte- 
ment comme dies sont dans la table et une permutation, liee a une fonction 
de comparaison qu'on choisit. Par exemple, on peut decider de comparer 
d'abord la premiere colonne lexicographiquement et a valeur egale compa- 
rer la deuxi^e ordinalement. 

Dans ce cas, la cl6 primaire triee est : 



(7) 


1 


1 


(4) 


1 


2 


(0) 


1 


3 


(1) 


2 


1 


(6) 


2 


2 


(3) 


2 


3 


(2) 


3 


2 


(8) 


3 


3 


(S) 


3 


7 


(9) 


4 


3 
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En retirant les valeurs (mais en gardant les indices), on obtient la per- 
mutation (7401632869)- La plus petite valeur se trouve done a la ligne 7, 
la deuxieme plus petite a la Ugne 4 etc* . . • Retrouver une valeur donnee se 
fait ainsi facilenient par dichotomie. 

Lorsqu'on stocke une table, il est tres pratique de stocker et medntenir k 
jour le nombre total de lignes dont elle est coisstitu^. 

3.3 Plusieurs tables 

Dans une base de donn^ relationnelle, U y a habituellement plusieurs tables 
reliees entre elles par des jeux de des primaires, cles etrangeres. 

Conune explique precedemment, une de primaire est une colonne ou un 
ensemble ordonne de colonnes ne pouvant prendre la ou les memes valeurs 
en deux lignes distinctes. (L'indice de ligne est un exemple fondamental de 
cle primaire.) 

Suppcsons qu'une table soit constituee de plusieurs millions de lignes, 
mais que certaines de ses colonnes ne puissent prendre qu'un nombre tres 
reduit de valeurs differentes (par exemple, ime base de donnees contenant 
des donnees de genealogie peut contenir les noms de personnes, pour char 
cune d'elles son pays de naiasance, son continent de xiaissance, les pays et 
continents de naissance de sa mere et de son premier enfant s'il en a. Au lieu 
de renseigner toutes ces colonnes, il est considSrS conune trfes ficonomique de 
stocker dans un tel cas les pays dans une table s^paree de la table prindpale 
et le continents dans une troisieme table. La table principale contient alors 
a chaque ligne une valeur (une cl^ ^trangere) donnant un identifiant de ligne 
(une valeur de cle primaire) de la table "pays" et la table "pays'' contient, 
a diacune de ses lignes, une valeur (une cle etrang&re) identifiant une des 
lignes de la table "continent" (cle primaire). 

Void un exemple xxuniatuie illustrant ce qui pr^cMe : 



(li) 


cn 


Inc 


BirCoim 


BirCont 


MoCoim 


MoCont 


EldCoun 


BldCont 


(0) 


Dupont 


817 


PVance 


Europe 


Tunisia 


Africa 


Ekigland 


Europe 


(1) 


Gracamoto 


1080 


Japan 


Asia 


Japan 


Asia 


USA 


America 


(2) 


Smith 


934 


England 


Europe 


India 


Asia 


England 


Eiu-ope 


(3) 


Helmut 


980 


Germany 


Europe 


Germany 


Europe 


Germany 


Europe 



(dans cet exemple, "cn" designe le nom, "inc" le revenu, "BirCoun" 
le pays de nsdssance, "BirCont" le continent de naissance, '*MoCoun" le 
pays de naissance de la m^re, "MoCont" le continent de naissance de la 
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mere, «EldCoun'» le pays de naissance de Taine et ^EldCont" le continent 
. de naissance d^aine. 

Cette table pent etre reecrite en plusieura tables : 
Continents : 



Continent 



(fi) 


Continent 


(0) 


A&ica 


(1) 


America 


(2) 


Asia 


(3) 


Europe 



Pays : 



Country 


(H) 


Country 


Contanent 


(0) 


Hrance 


3 


(1) 


Tunisia 


0 


(2) 


England 


3 


(3) 


Japan 


2 


(4) 


USA 


1 


(5) 


India 


2 


(6) 


Germany 


3 



La table prindpale devient ainsi : 



Ciistomers 



(li) 


cn 


Lie 


BirCoun 


MoCoim 


EldCoun 


(0) 


Boyer 


817 


0 


1 


2 


(1) 


Gracamoto 


1080 


3 


3 


4 


(2) 


Smith 


934 


2 


5 


2 


(3) 


Helmut 


980 


6 


6 


6 
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L'ensemble des trois tables ainsi construites occupe certes moons de place 
que la table initiale* 

Mais cela illustre aussi Pidee selon laquelle une base relationnelle peut 
etre transformee en un ensemble de tables independantes les unes des autres. 

Dans Pexemple pr^c6dent, on peut considSrer la table "Continents" par 
elle-meme, la table "Pays" avec la table "continent" d^veloppee dedans 
(c'est-4-dire la table "pays" daas laquelle les references a la table "conti- 
nents" ont 6t6 remplac6es par les lignes de la table elle-meme) et la table 
"Personnes" avec les tables "Pays" et "Continents" developpees dedans. 



devtelopped Continents 


(li) 


Continent 


(0) 


Africa 


(1) 




(2) 


Asia 


(3) 


Europe 



developped Countries 


(li) 


Country 


Continent 


(0) 


Brance 


Europe 


(1) 


Tunisia 


Africa 


(2) 


England 


Europe 


(3) 


Japan 


Asia 


(4) 


USA 


America 


(s) 


India 


Asia 


(6) 


Germany 


Eturope 
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developped Customers 


(K) 


cn 


Inc 


BirCoim 


BirCont 


MoCoun 


MoCont 


EldCoun 


EldConfc 


(0) 


Boyer 


817 


Erance 


Europe 


Tunisia 


AMca 


England 


Europe 


(1) 


Gracamoto 


1080 


Japan 


Asia 


Japan 


Asia 


USA 


America 


(2) 


Smith 


934 


England 


Europe 


India 


Asia 


England 


Europe 


(3) 


IMmut 


980 


Grermany 


Europe 


Germany 


Europe 




E)urope 



H pent bien evidemment arriver, comme dans cet exemple, qu'une table 
soit amende k se developper plusieurs fois dans une autre. Cela signifie qu'une 
colonne de table developpee dans une autre devra toujours etre references 
comme appartenant a la table d'expansion, developpee dans la table d'ex- 
pansion via un jeu de cles primaires et des etrangeres qu'il feront partie de 
Pidentite de la colonne. 

Nous definissons done une table d'expansion comme une table dans la- 
quelle toutes lee tables qui pouvaient etre d^eloppees en elle I'ont et6, en 
autant d'exemplaires qu'il y a de jeux de cles primaires cles etrangeres per- 
mettant de passer de la table d'expansion h la table developpee. Desormais, 
nous considererons done que la base de donn&s relationnelle est formee de 
tables d'expansion independantes les unes des autres. 

Pour chacune de ces tables d'expansion, on peut batir les indexes comme 
expliqu^ dans le cas d'ime table seule. 

Nous sommes maintenant en mesure d'interroger et de modifier notre 
base de donnees ainsi indexee. 



4 Le requetage 

Dans cette section nous e3q>liquons comment les indexes crees peuvent 
etre utilises pour resoudre efficacement des requetes SQL. Habituellement, 
une requete implique plusieurs tables et peut etre separee en deux par- 
ties distinctes : la clause "where'' qui demande au gestionnaire de bases de 
donn&s de calculer des indices de lignes d'une table et une partie deman- 
dant au gestionnaire de bases de donnees de faire des calculs sur des donnees 
se trouvant aux lign^ calculees. 

La premiere partie peut contenir des jointures de tables (un lien entre une 
ci6 6trangere et la cle primaire correspondante), une comparaison entre une 
colonne et une constante (avec un connecteur arithmetique comme =, >, >, 
<♦ <, between , like, in. . .) ou une comparison entre deux colonnes (mSmes 
op&ateura arithmetiques ou encore un produit cartesien). Ces requetes sent 
connectees entre elles, lorsqu'il y en a plusieurs, par des connecteurs logiques 
(and, or, not. . .). 
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La deuxieme parfeie de la requete peut contenir des operatiojos arithmetiques 
comme des somines, des moyennes, des produits, Topfirateur de denombrement 

4.1 Traitement des clauses de jointures : choix de la table 
d'expansion 

Ck>mnie explique pr6c^eimnent, chacune des tables est coiisid6ree comme 
table d'expansion, ce qui signifie que les jointures de tables ne soxit pas 
pertiaeutes pour une telle table. 

Mais une requete comporte Imbitueflement plusieurs tables. Comment 
choisir la table d^expansion dans laxiuelle r&oudre la requete ? 

tables impliquees dans la requete sent toutes developpees daas un 
ensemble non iriide, disons T. Une seule de ces table d'expansion n'est pas 
developpee dans les autres. Cette table est la table dans laquelle nous devons 
r^udre la requete. 

La clause 'Sphere" contient done des dauses de jointures, relives logique- 
ment au reste de la requete par des connections logiques "et". H suffit done 
de tout simplement les effacer en remplagant toute la clause "ef ' par Tautre 
terme. cela signifie qu'on remplaoe ''(Jointure BT Reste)" par Tteste^ et oe 
poinr chaque clause de jointure. 

Voyons k pr&ent comment g^rer efficacement une clause "where'' d^barrassfe 
de ses clauses de jointure. 

4.2 Requites atomiques 

Nous appelons 'Vequete atomique" ime portion indivisible de la clause where, 
c'est-a-dire une oomparaison qui forme toute la requite ou qui est reliee au 
reste de la requ&te par des connecfceurs logiques sans qu'elle en comporfce 
eUe-meme. Si une table t comporte la colonne c, une requSte atomique sera 
parexemplet.c = 3, t.c between *'HIGH" and " MEDIUM ^ % ou encore 
t.c like Wordye. 

Les prochains sous-parfi^graphes espliquent comment gerer les requetes 
atomiques. 

4.2.1 Cas d'egalite entre une colonne et una valeur donnee 

Ce cas est le plus simple a traiter. H suffit de lire I'arbre a radicaux de la 
valeur recherchee pour la colonne de la requete. 

4.2.2 clause Between 

Ceci est im exemple fondamenfcal de requete atomique. Toutes les autres 
requetes atomiques peuvent se ramener a ce cas. C'est pour cette clause que 
les macro-mots ont et6 crees. 
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Reprenons 1 exemple des dates donn6 dans le paragraphe but les macro 
mots. Cette colomie a et^ g^rfe en enridiissant le vocabulaire des troncatures 
de ses mots de longueur 4 efc de longueur 6. Si on cherche les lignes dont la 
vaJeur est comprise entre (19931117, 19950226], il suffit de d&ouper I'inter- 
^iiVf«l.i?^^P"^' 1^950225] = [19931117. 19931130] U [199312, 199312] U 
[1994, 1994] U [199501, 199501] U (10050201, 19950225]. 

1 ^nnS^"!^ ^ ^^P^^ •■ °^ ^ radioaux de la va- 

iT,™ ' °" (op&ation logique «or») avec celui de la valeur 
19931118, . . .qu on unit avec celui de la vaJeur 19931130 puis avec celui de 
la vaJeur (t«>nqu^e a 6 caract^res) de 199312 puis avec celui (tronqu6 h 4 
caract^) de 1994 puis avec celui (tronqu^ & 6 caracteres) de 199501, puis 
avec celm de 19950201 puis avec celui de . . .19950225, 

^Ainsi est-on amen^ & lire 42 axbres k radicaux au lieu des 466 qu'il aurait 
laUu lure sans les macro mots. 

Le traitement des «or" est e3q>]iqu6 plus bas. 

On peut bien sfir traiter des intervalles semi ouverts ou ouverts en ex- 
duant sunplement les mots catrespondants. 

4.2.3 Sup^ieur ou egal, inferieur ou %al, superleur, inferleur 
Chacune de ces requetes atomiques est une clause between qui s'ignore. 

En ^efc, SI on appeUe m et M le minimum et maximum du thesaurus de la 
coionne concern^ alois 



t 


.c 


> a 


signifie 


t.c between ]a. 




t 


.c 


>a 


signifie 


t.c between [a. 


m 


t 


.c 


< a 


signifie 


t.c between Dn, 


aC 


t. 


c 


<a 


signifie 


t.c between Dn, 


a] 



On peut ainsi traiter ces clauses comme une clause between. 

4.2.4 Clause In 

La clause In est une fagon de mbcer des egaJitfe par des "or". On peut 
done les gerer tres simplement. 

Par exemple, t.c in (a.b.c) peut se reecrire en t.c = a or t.c = b 
or t.c = c. La gestion des clauses "or" est expliqufe plus bas. 

4.2.5 Like 

La clause "like" est un autre exemple de clause between. Par exemple 
la clause t.c like Moty, se reecrit en effet en t . c between [Mot, MouC. ' 
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4-3 Connections entre requetes atomiques 

Les requetes atomiques peuvent etre nux^ a Paide de connecteurs logiques 
: le "And", le "Or" efc le ^^Not". Les trois prochaines sous-sections sont 
d^^es k ces operateurs. 

Nous souhaitons d'abord insister sur le fait qu'une requete atomique 
renvoie toujours en arbre a radicaux, ce qui sera aussi le cas de ces operateurs 
logiques et pour finlr de la clause where. 

4.3.1 Or 

Le fait de faire un "or*' ( * W ) de deux arbres a radicaux est en fait Toperation 
consistant k les r^unir. Ce calcul pent tiks aisdment se feure par un parcours 
en largeiu: des deux arbres simultanement. II se fait recursivement par 
union (tl, t2) 
Debut 
Arbre res; 

Si Ctl = NULL) res = t2 
Si Ct2 « NULL) res = tl 

res->FilBGauclie = Union (tl->Fxl8Gauclie, t2->FilsGaucIie) 
res->FilsDroit = Union(tl->FilsDroit , t2->Fils])roit) 
Renvoyer res 
Fin 

4*3.2 And 

Cette clause se calcule presque comme la precedente (elle correspond k une 

intersection) : 

IntersectionCtl, t2) 

Debut 

Arbre res; 

Si (tl = NULL) res « NULL 
Si (t2 = NULL) res = NULL 

re8->FxlsGauche = Intersection (tl->FilsGauche, t2~>FilsGauclie) 
res->FilBDroit » IntarsectionCtl->FilsDroit, t2->Fil8Droit) 
renvoyer res 
Fin 

Cette clause demande neamnoins naoins de temps de calcul en moyenne 
que la precedente. En effet lors des deux parcours des arbres en paraliae 
il suffit qu'un des deux noeuds explores n'aie pas de fils gauche pour que 
Texploration du fils gauche de I'autre noeud soit inutile, 

Cela est particulierement vrai quand les arbres ont 6t6 stodkfe sur disque 
dur dans des fidhiers s^par^s. 
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Fro, 4 - A 13-arbre a radicaux avant le NOT 

Not 

Cetfce clause est une des plus difficaes a mettre en oeuvre parmi les 
requetes atoxoiques. Elle peut neanmoiDs se traiter aesez facilement- 

L'indice maximal des lignes de diacune des tables est stocke et mis 
jour. La clause Not peut alors se traiter comme suit (le but est de calculer 
Tarbre a radicaux NotT avec T un arbre a radicaux. 

On d^finit ici un n-aarbre a radicaux complet un arbre a radicaux conte- 
nant toutes les valeurs de entiers compris entre 0 et — 1. 

Pour calculer un «not", il suffit alors de retirer recursivement, a Paide 
d'un a; - or les frflles de T d'un n arbre radicaux (ou n deslgne Pindice 
maximal des lign^ de la table d'expansion a laquelle appartient T), 

Lorsqu'on retire un noeud d'un arbre a radicaux, on le retire et on retire 
r&ursivement son p6re s'il n'a plus de fils. 

Par exemple, la figure 3 montre le calcul de NotT lorsque la table d'ex- 
pansion a laqueDe T appartient a un indice maximum de lignes utilise egal 
a 13* 

Voici Tarbre initial (voir figure 3) 
et I'arbre transforme (voir figure 4) 

4*4 Comparaison entre colonnes 

La comparaison entre deux coloimes est la plus complexe des requetes 
atomiques. Cette requete se traite prataquement comme un produit cartesien 
(voir la section suivante). 

Soit t une table d'expansion et soient t . c et t . d deux de ses colonnes ? 
Une comparaison entre ces deux colonnes est une operation au cours de 
laquelle on souhaite discrinainer les lignes de t pour lesquelles t.c > t.d 
par ejcemple. Nous insistons sur le fait que cette comparaison se fait k indicse 
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Figure 5: Le meme apres le NOT 

par exemple. Nous insistons sur le fait que cette comparaison se fait a indice 
de ligne identique pour les deux colonnes, ce qui distingue cette oomparaison 
du produit cartesien. 

Comment pouvons nous alors effectuer cette requete ? 

Nommons 7^ et :2a les thesaurus des deux colonnes t.c et t.d. Nous 
••^ recherchons les lignes telles qu'a ces lignes, t.c > t.d. Voici comment 
procdder. Pour tout mot w du thesaurus %^ on calcule Tarbre a radicaux 
- r de rintervalle [ma, v/] oix v/ designe le plus grand mot de Td infSrieur 
strictement a w. Alors en calculant un "et" sur r et Tarbre a radicaux de 
w, on obtient un arbre t^. En effectuant 16 reimion de tous les arbres a 
radicaiix r^, on obtient Parbre a radicaux recherche. 

H est bien evident que les arbres t«, ne doivent pas etre caJcules independamment ^ 
les uns des autres. Puisque les mots w sont parcourus dans Tordre aroissant, v^^,^ 
il suflSt d'unir & Tarbre coirespondant a Fajout des mots compris entre 
w et le mot survant dans 

On pent aussi calculer t.c - t .d a Paide des fichiers a plat et lire le 
resultat. 

Les autres clauses semblables se resolvent de fa^n similaire (pas: exemple 
t.c > t.d). 

4.5 Le produit cart6sien 

Le produit cartesien est coiisidere habituellement coname une requete tres 
combinatoire. En fait cette requete pent se r&oudre assez simplement et ef- 
ficacement. On pent en efFet et a titre d'exemple calculer le produit cart&ien 
de deux tables de 6 millions de lignes en moins de 7 secondes sur un ordi- 
nateur standart. 

Une telle requete est une comparaison entre deux colonnes independamment 
des lignes auxquelles elles appartiennent. Par exemple, on pent voulon: 
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Par exemple, supposons que les colopxie s t . c et t , d aoient : 

t.c 



z 
ab 



z 



da 



et 

b 



a 



as 



sa 



ca 
ba 
abra 



Alois, lenombredefois que t.c > t.dest 7+1 + 7+5+6 + 6 = 32, La 
complexite de ralgorithme naif est une constante fois le produit des tailles 
des deux tables, H n'est done en pratique pas possible de realiser un produit 
cartesien siu: des machines modernes en appliquant cet aJgorithme, 

Les colonnes sont stockees avec leur thesaurus et les arbres k radicaux 
correspondants a chacune des entries de ces thesaurus. 

On peut alors, pour chacun des mots des thesaurus concernfe par la 
requSte, crfculer le nombre d'apparitions de ce mot par lecture de I'arbre a 
radicaux correspondaut. 
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ab 


1 






c 


1 






da 


1 






e 


1 






z 


2 












t.d 


a 


1 


abra 


1 


as 


1 




1 


ba 


1 


ca 


1 


sa 


1 



On peut aussi, pour la colonne t.d, calculer pour chacun des mots w 
du tb^aurus le nombre d'apparitions d'un mot inferieur ou ^gal h w. Cela 



t.d, cmmjlated cardinalities 


a 


1 


abra 


2 


as 


3 


b 


4 


ba 


5 


ca 


6 


sa 


7 



Alois la lecture des thesaurus et les nombres d'apparitions des mots 
correspondants permet de calculer le r&ultat. En effet, pour cheque mot w 
de t . c, on recherche dans le thesaurus de t . d le plus grand mot w ' inferieur 
ou egal a w et ajouter au r&ultat (initialise a 0) le produit du nombre 
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d'apparitions de w par le nombre d'apparitions d'un mot inferieur ou egal h 



1^ 




w-card 


w'-cumul. card. 


product 


partial result 


ab 


a 


1 


1 


1 


1 


c 


ba 


1 


5 


5 


6 


d 


ca 


1 


6 


6 


12 


e 


ca 


1 


6 


6 


18 


z 


sa 


2 


7 


14 


32 



La complexity de cet aJgorithme est ime constante fois la somme de la 
taille des thesaurus, qui est en gdn^ral tres inferieur au produit de la taille des 
table, meme quand les colonnes sur lesquelles on realise le produit cartesien 
ne contiennent aucun doublon. 



4.6 Sous requStes corr^l^es 

Cette sous section et la suivante sont consacrees aux sous requet^. En 
effet, a peut se trouver qu'une clause Vhere" contienne eUe-meme une autre 
clause **where" , qui peut ou non etre corrflfe k la clause "where" principale. 

Qu'est ce qu'une sous requete correlee? TJn exemple d'une telle requete 
est donn6 par la requete 17 du TPC. Cette requete est : 

select 

sum(l_extendedprice) / 7.0 as wg^yeaxly 

from 

lineitem 
part 
where 

p_partkey = l^partkey 
and p Jb>rand » » EBRANDJ ' 
and p_container « » [CONTAINER] ' 
and l^quantity < ( 
select 

0.2 * avgd^quantity) 

from 

lineitem 

where 

p_partkey = p^partkey 

) f 
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Dans cette requete, on doit reaJiser le calcul d'une sous requete ten- 
ant compte des conditions requises par la requete principale (puisque le 
pj)artkey de la soxis requete appartient a la clause where principale). 

Done ce genre de requete pent etre re^crite de fa^n a changer cette sous 
requete en une sous requete non correlde. H suffit pour cela de dupliquer les 
conditions requises par la clause where principale dans la clause where de la 
sous requete correl6e. Dans notre exanple, cela donne : 

select 

sum(l_extendedpxice) / 7*0 as ag_jearly 

from 

lineitem 
part 
vliere 

pjpartkey = l_j)artkey 
and p_braad = ' [BRAND] ' 
and p_container » ' [CDMTAIHER] ' 
and l_quantity < ( 
select 

0,2 »ee avg(l_quantity) 

from 

lineitem 
partsupp 
where 

pjpartkey ^ p_partkey 

and pjbrand » ^ [BRAND] * 

and p^container = ' [CONTAINER] » 

); 

Finalement, une sous requite correlee pent se r^&alre en une sous requete 
non corrflee. C'est le sujet de la prochaine sous section. 

4.7 Sous requetes g^n^rales 

Une requete SQL contenant des sous requetes non correl^ peut se traiter 
en traitant d'abord les sous requetes rfcursivement et en rempla^t dans 
la requete la sous requSte par son r&ultat, 

4.8 EflFectuer des calculs aux lignes trouv^ 

D&ormais, nous sonunes en mesure de traiter une clause '"where" qui nous 
renvoie tm arbre k radicaux repr&entant les indices de lignes de la table 
d'expansion correspondant a cette clause. 

Supposons a pr&rat que Tobjet de la requSte ait 6t6 de realiser certains 
calculs sur qudques colonnes aux lignes trouv&s. Par exraiple on peut 
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vouloir calculer la moyenne aux lignes trouv^es des valeurs d'une certaine 
oolonne. 

Les valeurs de cette colonne sont stock&s "4 plat" dans leur ordre d 
appantion. H est done tr6s simple de relire les valeurs de cette colonne uni- 
quement pour les lignes trouv6es pr^c&lemment et effecfcuer sur ces valeura 
les calculs demandes. 

5 Modifications de la base de donn^es 

Nous sommes id en mesure de stocker toute une base de donnees et de 
1 interroger efficaoement. D reste encore 4 gfcre capables de la modifier effi- 
cacement. La dialectique habitueDe est que plus une base est de feson 
k pouvDor etre interrogfe rapidement, plus les modifications sont cofiteuses 
en temps et en ressouroes machines et vice versa. 

Ce n'est pas le cas avec I'algoritW detaille dans cette invention. Non 
seulement les requetes sont r&olues rapidement avec peu d'utilisation des 
ressouroes machines, mais cela reste vrai quand on modifie la base de donnees. 

Itansformer une base de donnees pent consister en ajouter ou rettancher 
des lignes, modifier des donnees, ajouter ou supprimer une cU primMre, 
ajout^ ou BUKprimer une ci6 ^trangfere, ajouter ou supprimer une colonne 
de table, ajouter ou supprimer une taWe. Voyons sucoessivement tous ces 
cas. 

5.1 Modifier line table 

Une modification de table est une op&ation des plus coarantes quand 
on modifie une base de donnees. D s'agit le plus souvent d'ajouter ou de 
retnrer des lignes d'une table. Une autre transformation oonsiste en changer 
1 organisation de la base de donnfes, mais ce genre de modifications est bien 
plus rare. 

Eng^n&al, lorsqu'on enlfeverades lignes d'une table, nous ner^iganiserons 
pas toute la table. Cela signifie que certains indices de ligne seront declare 
libres et que les donnees correspondantes seront efFacees des tables d'ex- 
pansion dans lesqueUes eUes sont presentes (voir plus loin). Une table com- 
portera done usueDement des "tious" : certaines lignes seront consid&r^ 
comme vides de tout contenu, Les indices de ces lignes seront stockes et mis 
a jour. 

5.1.1 Ajouter des lignes k woe table 

On souhaite done ajouter des lignes h une table T. Nous insistons sur 
le felt que pour nous, la base n'est constituee que de tables d'erxpansion. 
On commence par completer les lignes de T des colonnes des tables T» qui 
s'd^vdoppent dans T. 
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Puis pour chaque table dans laquelle T s'developpe, grace au fichier 
des indices de lignes libres de T% nous attribuons a chaque ligne a ajouter 
un indice de ligne dans T*. 

Enfin il ne resfce qu'a calculer les arbres a radicaux de chacune des 
colonnes de la table T completee, a realiser un "or" avec les arbres a radicaux 
des mots correspondants dans T » et stodser ces arbres en lieu et place des 
andens. 

Oter des lignes k une table 

n y a plusieurs i»x>blfemes a r6gler : toutes les tables de notre base de 
donn^ sent des tables d'^pansion et nous ne souhaitons pas reorganiser 
les tables de fond en comble apr& en avoir retire certaines lignes. 

Nous avons done les indices de lignes devant etre retirees d'une table T 
(ces indices peuvent avoir ete trouvees a I'aide d'une clause where). Pour 
chaque colonne t . c de la table d'expaosion T et pour chaque mot v on calcule 
Parbre a radicaux de w pour les lignes & retirer qu*on x-or avec Parbre de w 
avant modification. Le resultat est stocks en lieu et place de Tarbre initial* 

On suppose qu'il n'est pas necessaire de changer quoi que ce soit aux 
tables dans lesqudles T s'd^vdoppe* En effiet, si ce cas se presentait, cela 
signifierait que la clause delete 6tait illSgale. 



5*1.2 Ajout d'une colonne 

Ajouter ime colonne c k une table d'expansion T consiste en plusieurs operations 
H faut en effet traiter la table a laquelle la colonne apparkient ainsi que toutes 
celles dans lesquelles cette table s'developpe. 

Le traitement de T consiste en la construction du thesaiurus de c, et des 
arbres a radicaux correspondants ainsi que leur stockage. 

Le traitement des tables dans lesquelles T s'developpe consiste a lire 
les indices de lignes de T> auxquels doit etre ajoutfe la colonne c. H suffit 
alors de calculer le thesaurus et les arbres a radicaux correspondants et de 
1^ stocfcer- 

Prenons un exemple : 



TO 


Cli) 


cl 


fkl 


(0) 


a 


2 


(1) 


b 


1 


(2) 


c 


0 


(3) 


b 


1 


C4) 


e 


2 
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(li) 


pkl 


c2 


fk2 


CO) 


0 


S 


0 


(1) 


1 


T 


1 


C2) 


2 


V 


0 



T2 


(li) 


pk2 


c3 


(0) 


0 


X 


(1) 


1 


Y 



Les tables d^expansion sont done : 



developped 



TO 



(TO) 



(Tl) 



(T2) 



(li) 



cl 



fkl 



pkl 



c2 



fk2 



pk2 



c3 



(0) 



(1) 



(2) 



(3) 



(4) 



V 



1 
0 



Y 

X 



developped 



Tl 





(TO) 


(Tl) 


(li) 


pkl 


c2 


fk2 


1 Pfc2 


c3 


(0) 


0 


S 


0 


0 


X 


(1) 


1 


T 


1 


1 


Y 


(2) 


2 


V 


0 


0 


X 
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d^velopped T2 


(li) 


p33c2 


c3 


(0) 


0 


X 


(1) 


1 


Y 



et supposoiis que xioiis souhaitions ajouter la colonne c2 a T2 dont les 
valeurs sonfc Y et Z. 



developped T2 


(li) 




c3 


c2 


(0) 


0 


X 


Y 


(1) 


1 


Y 


Z 



Pour calculer la nouvelle table d'expansion Tl, on mit les valeurs de la 
cle priamire pk2 et copie les valeurs correspondantes de T2 dans la nouvelle 
co lonne de Tl. Cela donne : 



Tl 


(Tl) 


(T2) 




(li) 


pkl 


c2 


tls2 


pk2 


c3 


c2 


CO) 


0 


S 


0 


0 


X 


Y 


(1) 


1 


T 


1 


1 


Y 


Z 


(2) 


2 


V 


0 


0 


X 


Y 



De la meme fagon, on lit les valeuis de pk2 dans TO pour calculer la 
nouvefle table d'expansion TO. Cela donne : 
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It?l UfcffJUl 





TO 




(TO) 




(Tl) 


(T2) 


(li) 


cl 


fkl 


pkl 


c2 


fk2 


pk2 


c3 


c2 


(0) 


a 


2 


2 


V 


0 


0 


X 


y 


(1) 


b 


1 


1 


T 


1 


1 


Y 


z 


(2) 


c 


0 


0 


S 


0 


0 


X 


y 


(3) 


b 


1 


1 


T 


1 


1 


y 


z 


<4) 


e 


2 


2 


V 


0 


0 


X 


y 



5.1.3 Enlever une colozme a une table 

Enlever une colonne a une table T est une operation tres simple. EDe 
consiste simplement en Teffacement des fichiers correspondants pour cette 
colonne de la table T ainsi que pour toutes les tables dans lesquelles T 
s'd^veloppe* 

5.1.4 Ajouter tine cle primaire 

Une cle primaire est stockee par les donnees des colonnes formant la de 
ainsi que par une pennutation pennettant de retrouver Tordre Iradcogra- 
phique dans lequel elles sent triees. 

Ajouter une cl6 primaire revient done a stocker d'une part les donn&s 
des colonnes la formant avee la permutation correspondante. 

5.1.5 Ajout d'une cle etrangere 

Une de etrangere, f k, appartenant a une table d'extension T, est attachee 
k une de primaiiB, disons pk appartenant a une table d'extension T\ La 
table T' doit etre developp^ dans T d'apres le couple (fk, pk) meme dans 
le cas ou est deja devdoppfe dans T par le biais d'un autre couple forme 
d'une cle etrangere et d'une de primaire. 

Pour toute ligne de T, d'indice i, la cI6 etrangere a une valeur v qui 
permet de retrouver I'indice de la ligne correspondante dans T', c'est-a-dire 
I'indice p(i) de T' td que pk[p(i)] = v. 

On ajoute alors les colonnes de T' dans T. Pour reaJiser cela, pour chaque 
colonne c de T', on lit la valeur T'.c[p[i]] pour chaque entier i. Puis 
on procfede comme dliabitude en construisant le thesaurus et les arbres a 
radicaux de cette colonne qu'il ne reste qu'a stodcer. 
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5.1.6 Retirer une cle primaire 

ESajcer xme cle primaire se fait en effagant les fichiers qui la decrivent. Si 
cette cle primaire est encore cible d'une cle etrangere, il faudrcdt naturelle- 
ment lancer une exception car dans ce cas une telle demande est illegale* 

5.1.7 Retirer une cle etrangere 

Notons f k la cle etrangere a retirer et T la table a laquelle elle appartient. 
Cette cl6 Strangfere cible une cle primaire, disons pk, appartenaut k une table 
T\ 

Retirer cette cle primaire brise ce lien entre T et T*. Cela signifie que 
T' perd cette extension dans T (il faut dStruire les fichiers correspondants) 
ainsi que dans toutes les tables dans lesquelles T est d^velopp^. 

5.2 Ajouter ou retirer une table de la base 

Ajouter ou retirer une table de la base de donn^es consiste k ajouter (ou re- 
tirer) toutes ses colonnes, toutes cles primaires et toutes ses cl& etrang^es. 
Ibus ces procedes ont ete vus plus haut. 

6 Revendications 

1 Un algorithme permettant une gestion complete d'une base de 
donn^es en developpant chacune des tables qui forment la base 
dans les tables auxquelles elle est reliee par un jeu de cles primaires f:^. 
cles etra3ageres« Cette etape consiste en : 

Pour touts table T de la base de dounSes relatiomielle 
Pour toute cl6 6trang6re f do T 

Ajouter les colonnes de T> cii T* est une table ayant une 
cl^ primaire cible de f 

R6p6ter ce proc§d§ rficursivement . 
Une table dans laquelle toutes les tables qui pouvaient Petre ont 6t6 
ddvelopp^ est nommfe une table d'expansion. 

2 Un algorithme dedie a la creation des indexes. 
Cette etape consiste en 

Pour chaque colozme C de chaque table d'e3q>ansion T comme ddtaill^ 
dans la revendication 1 

Choisir un ensemble d'entiers posit if s, les longueurs de troncatures. 
Order et stocker le thesaurus T de la colonne C 

Pour chaque mot de ce thesaurus calculer 1' ensemble des indices 
de lignes auxquelles il apparait. 

Order et stocker I'arbre k radicauz dont les feuilles sont 
les SlSments de S 
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Pour toute longueur I de troncature 

Creer et stocker le thesaurus de la colonne C dans laquelle 
tous les mots out St6 tronqufis k I caract&res (si C est d© type chaSne 
de caractSres ou dates ou de Z caractdres (si la coloime C contient 

des douaSes de type uum^rique) . 

Pour tout mot de T' calculer 1' ensemble S* des indices 
de lignes aiucquels il apparalt, 

Cr^er et stocker I'arbre a radicaux dont les feuilles 
sont les Elements de S'. 

3 Une £tape consistant en stocker a plat les doxinees de cfaaque 
colonne de chaque table d'expansion- 

Cette etape consiste en g&ieral a stocker la suite des indices des mots 
dans le thesaurus dans Tordre dans lequel ils apparaissent dans la colonne, 

4 Un algorithme dedie aux requetes SQL* Cetfce etape consiste en 
R&oudre la clause "whrare". Cette ^tape renvoie un arbre h radicaux. 
Calculer la table d' expansion dans laquelle doit §tre r^solue 

la requite SQL, Cette etape se fait en calculant 1» ensemble S des 

tables dans lesquelles sont d^veloppfies les tables impliqu#es dans 

la requSte. Parmi les table de S, une saule n'est pas ddvelopp^e 

dans toutes les autres. C^est la table d'expansion pertinente pour 

la requite a r§soudre. A partir d'ici, la r6«rence a. la table d'expansion 

signifiera cette table. 

Ef facer les clauses de Jointure de la requite. 

Efeoudre r§cursiv^ent les sous requ§tes. Dans le cas d*une sous-requ€te 
coxx€l§e, les conditions de la clause ''where'' dont elle depend 
seront dupliqu§es dans la sous requ§te qui sera alors traitfie comme 
une sous requgte non corra§e. Lorsque la sous requ§te n'est pas 
corr^We, elle est traitfie comme une requSte indSpendante de la 
requ§te principals et son risultat la remplace au sein de la requite 
principale - 

Risoudre la clause "where*' elle mSme. 

La resolution d'une requete ne contenant pas de sous requite est ex- 
pliquee plus bas. 

5 Un algorithms ponr r^soudre les requetes SQL ne contenant 

pas de sous requete. 

Reconnaitre et r^soudre les parties atomiques de la requite, Une 
partie atomique de requite est une partie de la where clause ne 
contenant pas de connecteur logique comme "et", "ou" ou ''not". 

Mixer les result at s des requites atomiques au moyen des clauses 
"and", "or", "not" prisentes dans la clause "where". 

6 Un algorithms pour resoudre les requetes SQL 

- Une clause d'^galiti entre une colonne et une const ante est trait 6e 
en lisant 1' arbre k radicaux de la constants . 
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- Une clause ''between'^ est trait^e en s^parant 1 * intervalle demands 
en intervalles dont les bornes sent de longueur les longueur© de 
troncaturee de la colonne de fagon k minimiser le nombre d'arbres 

3l radicaux ^ lire. 

- Une clause ^'in»' est traitfie comme des clauses d»6galiti sdpardes 
par des "or". 

- une clause de comparaison entre une colonne et une constante (>, 
>^ <^ <) est trait6e comme un between en utilisant comme borne 
la valeur minimale ou mazimale du thesaurus. 

Une clause "like'» est trait^e comme une clause between " . 

- Une comparalson entre deux colonnes est traitSe en utilisant les 
thesaurus des colonnes et les arbres k radicaux des colonnes ou 
les f ichiers h. plat des colonnes compar6es. 

Pour le premier cas, Commons % Bt Td les thesaurus des deux colonnes 
t.c et t.d. ITous recharchons par exemple les lignes telles qu'S. 
ces lignes, t.c > t*d. Pour tout mot w du thesaurus %, on calcule 
l>arbre k radicaux r de l^intervalle [mdjic/] oil designs le plus 
grand mot da Td inftoieur strictement k w. Mors en calculant un 
"et" sur r et l^arbre k radicaux de w, on obtient un arbre tw* 
Ba effectuant la reunion de tons les arbres k radicaux r^, on obtient 
1' arbre k radicaux recherchS. 

On pent aussi calculer t.c - t.d & l^aide des f ichiers k plat et 
lire le rSsultat. 
Les autres clauses semblables se rfeolvent de fagon similaira (par 
exemple t . c > t . d) ► 

7 Un algorithme pour resoudre la clause "where" de la requite. 
Cette etape consiste k traitor r&ursivement les joncfcions logiques entre. ,4i/:; 

les sous requetes de la clause where. 

8 Une etape consistaat a effectuer des calculs sur les donn^es 
Cette 6tape consiste k lire les fichier k plat des colonnes impliquees dans 

la formule de calcul et de realiser les operations demandees. 

9 Une etape consistant a effectuer des calculs but les donnees 
Dans le cas d'un produit cart&ien par exemple on peut utiliser les the- 
saurus et les cardlnaux des arbres k radicaux, cumules ou non. Si on veut 
denombrer par exemple le nombre de fois que t.c > t' .d, pour chaque 
mot w de t.c, on recherche dans le thesaurus de t.d le plus grand mot 
w» inferieur ou egal a w et ajouter au resultat (initialise a 0) le produit du 
nombre d'apparitions de w pax le nombre d'apparitions d'un mot hif&ieur 
ou egal kw. 

10 Un algorithme consistant a gerer la base de donnees 

Les modifications de la base de donnees peuvent consister k ajouter ou 
retker des lignes k une table, mettre a jour du contenu de table, ajouter ou 
retirer une colonne de table, ajouter ou retirer une cle primaire ou une cle 
etrangere, ajouter ou retirer ime table. 



31 



lei uepui 



. 10.1 Ajouter des Kgnes k une table T consiste k 
Assigner im indice de ligae libre t chaque ligne a ajouter 
Pour chaque colojuxe de la table 

Calculer le thesaurus des lignes h ajouter et I'arbre 4 radicaux 
de chacnn des mots k apparaissant dedans. 

Ajouter les nouveanx mots du thesaurus de la colonae et calculer 
et stocker tw ou wr ot tw est I'arbre 4 radicaux du mot w (vide 
sx H n'Stait pas present dans cette colonne et nw I'arbre a radicaux 
des indices de lignes auxquelles w est ajoutfi. 

10.2 Retiter des lignes k une table consiste a : 
Pour chaque colonne de la table 

calculer le thesaurus T des lignes k retirer et I'arbre k radicaux 
de chacua des mots de ce thesaurus pour les lignes en question 

Pour chaque mot w de T faire un X-or de I'arbre & radicaux 
de w de la base avec celui qui vient d»§tre calculfi et remplacer 
1 arbre a radicaux de v dficrivant sa prisence dans la colonne par 
le rSsultat de ce calcul. 

10.3 Mettre 4 jour du contenu consiste a retirer les contenus a remplacer 
comme s il s'agissait des Hgnea de la table a laquelle il appartient et ajouter 
le contenu comme s'il s'agissait de lignes k ajouter- 

10.4 Ajouter une colonne C une table T consiste k : 

Calculer le thesaurus et les arbres k radicaux de la colonne 
Les stocker 

Pour Chaque table T' dans laquelle T se dSveloppe : 

Construire la colonne d§velopp§e dans T' en respectant les 
chemins entre T' et T via les jeux de cWs priaaires dSs fitiang&res 
^ Ajouter la colonne construite a T* comme cela a 6t6 fait pour 

10.5 Retirer une colonne C a une table T consiste k e&cer son thesaurus 
et ses arbres k radicaux dans T ainai que dans toutes les tables T' dans 
lesquelles T est d^veloppfe. 

10.6 Ajouter une cl6 primaire k une table T consiste k stocksr & plat 
ses valeurs et une permutation permettant d'en lire les valeurs dans I'ordre 
lexicographique ou ordinal. 

10.7 Effacer une cle primaire consiste It effacer son stockage k plat ainsi 
que la permutation correspondante. 

10.8 Ajouter une ci6 etrangfere f (ciblant une cl6 primaire d'une table 
T ) a une table T consiste k ajouter dans T toutes les colonnes de la table 
developpee T ' en respectant les valeurs de f et r^p^ter cette operation pour 
toutes les tables dans lesquelles T est developpee, 

10.9 Effacer une cle etrangere f (ciblant une cl€ primaire d'une table 
T ) a une table T consiste a effacer dans T toutes les colonnes de la table 
d6veloppee T» en respectant les valeurs de f et r6p6ter cette operation pom- 
toutes les tables dans lesquelles T est d^veloppfe. 
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10*10 Ajouter ne table consiste a ajouter ses colonnes, ses cl& primaires 
et ses cles etrangeres, 

10«11 Effacer ne table consiste k effacer ses colonnes, ses cles primaires 
et ses etrangeres. 
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